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Verfahren zur natQrlichen Spracherkennung auf Basis einer Generativen 
TransformationsVPhrasenslruJcrur-Grammatik 

Die Erfindung betrifft ein Verfahren zur naturlichen Spracherkennung auf Basis einer 
10 Generativen Transfomtations-yPhrasenstmktur-Gramnnatil< (GT/PS-Grammar). 

Aktuelle Sp'racherkennungssysteme mit natiirlicher Spracherkennung (NLU = Natural 
Language Understanding) sind in der Lage, eine Vielzahl moglicher AuBerungen zu 
veretehen und in komplexe Befehlsstmkturen umzusetzen, die 

15 Spracherkennungssysteme. z.B. Computer, zu bestimmten Aktionen veranlassen. 
Sie tun dies auf dor Grundlage vorab definierter sinnvoller Mustersatze, die von 
Applikationsentwicklem und sogenannten Dialog-Designem festgeiegt werden. Diese 
Sammlung von IVIustersatzen - auch ..Grammar" genannt - umfasst einzelne 
Kommanddworte ebenso wie komplizierte Schachtelsatze. die an einer bestimmten 

20 Stelle des Dialogs sinnvoll sind. AuBert der Nutzer einen solchen Satz, wird er vom 
System mit'groSer Sicherheit verstanden und die mit ihm verknupfte 
Handlungsanweisung wird ausgefuhrt. 

Bei der Prdgrammierung einer Eikennungsapplikation, z.B. einer NLU- 
25 Telefonapplikation, ist die Grammar also ein unverzichtbarer Baustein. Sie wird mit 
Hilfe eines Ispeziellen Werkzeugs, der sogenannten Grammar Specification 
Language (GSL) ©rzeugt. Mit ihr werden die zu verstehenden Worte sowie ihre 
Verknupfungen vorab reproduziert und fOr den Spracherkenner festgeschrieben. Die 
vorgegebehen Satze werden dabei aus Wortkombinationen gebildet, die 
30 untereinaniler austauschbar (paradigmatische Achse) und miteinander kombinierbar 
(syntagmatische Achse) sind. Ein Beispiel hierfur ist in Rgur 7 dargestellt. 



p8C- 10-04 



01.:34poi ^From-Coopar 1 Dunhao LLP 



12123910630 



T-924 P. 005/034 F-452 



#^^PCT/D£2003/00213S 

2 

Die mogJichen AuBerungen ergeben sich aus der syntagmatischen VerknOpfung der 
paradigmatischen Wortkomblnationen. Dass dabei auoh Satze mogllch werden. die 
grammatisch falsch sind. wie z.B. „Wurden Sie vielleicht Telly-Tarif ersetzen?" muss 
in Kauf genommen werden, urn das Antwortenspekirum moglichst grol3 zu halten. 

5 Diese sogenannte „Overgeneration". das hei3t z.B. das Vorhalten bzw. Erkennen 
von unsinnigen Mustersatzen oder Ausdrucken mit dem selben Sinngehalt. sollte 
jedoch gering gehalten werden. denn sie beansprucht betraehtlichc 
Systemressourcen und setzt gleichzeitig die Erkennungsleistung herab. well das 
System jede NutzerauBerung mit einer FQIle vorgegebener Satzkombinatlon 

10 vergleichen muss, die kaum jemals geauBert werden. 

in der bisher Obllchen Praxis wurden die paradigmatischen Wortkombinationen in 
einer Weise festgelegt, die scheinbar Zusammengehoriges verbindet Dabei wurde 
von der bedeutungstragenden Qualitat der Worte ausgegangen. Dieses Verfahren. 

15 das von einem mutmaBlichen Erfolgssatz ausgeht. entspricht durchaus den 
Erfordemissen einfacher Applikationen und fuhrt hier zu zufriedenstellenden 
Ergebnissen. Bei komplexen Anwendungen, mit einer Fulle sinnvoller 
Antwortmaglichkeiten hingegen. werden diese herkommlichen Grammatiken so groB, 
dass sie selbst die Rechenkapazitat gegenwartiger Hochleistungssen/er bis an die 

20 Grenze belasten. Die Folgcn sind: 



Stark vemnehrte Overgeneration 
SpQrbare Verzogerungen bei der Erkennung (Latency) 
Sinkende Erkennungssicherheit (Accuracy). 
25 - Abgesenkte Systemstabilitat (Robustness) 

Der Hauptmangel dieser Methode besteht darin, dass die spezifizierten Satze 
lediglich einer oberflachlichen Kombinatorik folgen. Die erzeugte Overgeneration I 
deshalb so groB. weil die scheinbar zusammengeliorigen Elemente tatsachlich 
30 anderen Kombinationsregeln folgen, die in der Sprachwissenschaft seit langerem 
bekannt sind. 
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Zusammenfassend wird festgehalten, dass die derzeit verbreiteten Grammars, die 
festlegen. welche satze von einem ASR-System erkannt werden. tradttionellen 
grammatischen Konventionen folgen. die natQriich-sprachfiche AuBerungen 
unzurelchend strukUiriert abbilden. Dabei wurde bislang nioht von einer 

5 Differenzierung von „Oberflachen-„ bzw. „Tiefenstrukturen- ausgegangen. Die 
linguistische Hypothese besagt. dass eine syntaktische Tiefenstruktur und deren 
„generatjve Umsetzung" hin zu konkreten Oberflichenstrukturen die 
Leistungsfahigkeit eines Sprachsystems ausmacht Wird bel steigender Komplexitat 
ausschlieBIich die bisher eingesetzte Oberflaclienstruktur verwendet, muss diese. 

10 urn ihrer Aufgab© dennoch gerecht zu warden, so groB dimensioniert sein. dass sie 
im Betrieb kaum noch vemunftig gepfiegt werden kann und die Server bis an die 
Grenzen ihrer Kapazitat belastet 

Die Aufgabe der Erfindung besteht darin, ein Verfahren zur Spracherkennung auf 
15 Basis einer Generativen Transfomiatlons-/Pliras6nstnjktur-Grammatik anzugeben, 
das im Vergleich zu herkSrnmlichen Erkennungsvetfahren weniger 
Systemressourcen benotigt und dadurcli eine sichere und schnelle Erkennung von 
Sprache bei gleichzeitlger Verringerung der Overgeneration ermoglicht. 

20 Diese Aufgabe wird erfindungsgemaB durch die ly^erkmale des Patentanspruchs 1 
geldst. 

ErfindungsgemaB erfolgt eine Analyse einer gesproclnenen Piirase auf darin 
enthalteneTriphone, eine Bildung von in der gesprochenen PJnrase enthaltenen 
25 Wortem aus den erkannten Triphonen mit Hilfe von Lautwortdatenbasen 

(Dictionaries) und eine syntaktisclie Rekonstruktion der gesprochenen Phrase aus 
den erkannten Wortem unter Venwendung eines grammattischen Regelwerks 
(Grammar). 



30 



Vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung ergeben sich 
den Merkmalen der Unteransprflche. 
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Besonders markant ist der Gegensatz zwischen dem erfindungsgemaBen Verfahren 
Ora... SpeCcation Language, d. .e,nen App.iKat.onen 
auch mit syntaktischen Oberflachen. d.h. konkretes Ausformulieren von 
Erfolgssatzen, gute Resultate erzielte. 

' Erfindungsgema. we,^en die Verknupf ungsregeln grammatischer Satze nicht an der 
Oberflache reproduziert. sondem die Tiefenstrukturen aufgezeigt. denen d.e 
syntagmatischen Verknupfungen allerindogemnanlschen Sprachen folgen. Jeder 
Satz wlrd anhand eines syntaktischen Modells in Form von sogenannten 

10 StrnWurbaumen beschrleben. 

Die GT/PS-Gr^mmar orientiert sich nicht an den potenziellen AuBeningen einer 
spezifischen Applikation. sondem an der Tiefenstniktur der Syntax 
(Satzbildungsregeln) indogermanischer Sprachen. Sie liefert eln Gerust. das mrt 
15 verschiedenen Worten gef ullt werden kann und die Realitat der gesprochenen 
Sprache besser abbildet. als das bisher praktlzierte ..mimetische- Verfahren. 

innerhalb der durch die Strukturbaume beschriebenen T.ef enstrukluren wird 
erkennbar. dass sich bestimmte Phrasen innertialb eines Satzes wiederholen. 
20 SolcheWiederhdlungenkSnnenmitHilfederGSLreproduzlertundaufgefangen 

werden Dadurch sinkt nicht nur der Umfang einer Grammar erhebllch. sondem auch 
die Overgeneration von grammatisch inkorrekten Satzen sinkt betrachtlich. 

Wahrend in dertraditionellon GSL-Grammar z.B. rund 500 Subgrammars in sieben 
25 hierarchischenEbenenmileinanderverflochtensind. kann die Anzahl der 

subgrammars im GT/PS-l^odel. auf z.B. 30 Subgrammars in nur zwei hierarchischen 
Ebenen reduziert werden. 

Der neue Grammartyp bildet natOriich-sprachltehe AuSerungen in struklurierler Form 
30 ab und hat dabei Z.B. nur rund 25% der GraBe der bishertgen Graa,n,«r. Aufgrund 
ihmr geringen GroBe ist diese Grammar einfacher zu pflegen. wobei dfe Zarten fur 
Kompilierung rapide sinkan. Aufgrund Ihrer geringen GrSBe steigi *e 
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Erkennungssicherheit (Accuracy) undsinkt die Erkennungsverzogerung (Utency). 
Die aktuellen Rechnerkapazitaten werden besser ausgenutzt und die Performance 
der Server stelgt. DarOber hinaus ist die neue Grammar nicht auf eine bestimmte 
Applikation bezogen, sondem kann in ihren Grundstrukturen fur untsrschiedliche 
5 Anwendungen. veiwendet werden. wodurch die Homogenilat der Systeme gesteigert 
und die Entwicklungszetten reduziert werden. 

Der universale Code der Tiefenstruktur ermoglicht den Einsatz und die 
Wertschopfung fur multilinguale Sprachsysteme in einer bislang nicht erreichten 
10 Dimension, besonders die westeuropaischen Standardsprachen konnen mit 
vergleidisweise geringem Aufwand verarbeitet werden. 

Im Unterschied zur bisherigen Grammar f Qr naturlich-sprachliche Dialogapplikationen 
basiert die neue GT/PS Grammar auf aktuellen sprachwissenscliaftlichen IVIodellen. 
15 die naturlich-sprachliche AuSerungen im Rahmen von Oberflachen- und 

Tiefenstrukturen abbilden. Die abstrakten Strukturmuster werden mit einer Grammar 
Specification Language (6SL) in ein hierarchisch verschachteltes und vernetztes 
Regelwerk ubertragen, dessen Strukturen in der beiden Aniagen abgebildet sind. 

20 Die technischen Voizuge der GT/PS-Grammar sind damit: 

Die GT/PS-Grammar ist sehr viel Weiner als die bisherige Grammar, weil sie 
statt der bisher bis zu sieben Subgrammarlevels nur noch mit zwei Ebenen 
auskommt; 

25 - Die Zahl der von der Grammar abgedecklen aber grammatisch falschen Satze 
(Overgeneration) sinkt drastisch; 
. Sie benotigt nur noch mnd ein Drittel der bislang verwendeten Slots: 
- Sie fullt entgegen der heutigen Spracherkenner-Philosophie die Slots in den 
unteren Grammar-Ebenen, statt in den oberen; 
30 . Sie nutzt das von der GSL (Grammar Specification Language) bereit gestellte 
Instrument. Slotwerte in hShere Grammarlevels hocb zu relchen, konsequent 
aus; 
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- Si8 bestet einen neuen Slot mit der Bezeichnung ACTION, der nur noch mit den 

Werten GET und KILL gefullt werden kann; 
. sia arbeitet mit Ineinander verschachtelten Slots, die hochgradig 

multitaskingfahig sind. 
5 . Sie f uhrt zu einer Verbesserung der Erkennerleistung 

. Sie ermoglicM eine vereinfachte Option zur Einfuhrung mehrsprachiger 

Applikationen 

. Sie weist eine nahtloso Integrationsfahigkeit in Nuance Technologie auf 



10 Die wirtscliaftlichen VorzQge der PSG sind: 

. Verringerung der Hardwarekosten durch bessere Ausnutzung der 

Systemressourcen 

. Verringerung der Ubertragungszeiten durch leistungsfahigere Erkennung 
15 - Einspanjng von Personalressourcen durch leichtere Pflegbarkeit 
GroBere Kundenzufriedenheit 
- Anwendbar auf alle Weltsprachen (Englisch bis Chinesisch) 



Nachfolgend wird die Erfindung anhand eines vereinfachten Ausfuhrungsbeispiels 
20 unler Bezugnahme auf die Zeichnungen naher eriautert, Aus den Zeichnungen und 
deren Beschreibung ergeben sich weitere Merkmale, Vorteile und 
Anwendungsmoglichkeiten der Erfindung. 
Es zeigt. 

25 Figur 1 : Eine Triphonanalyse als ersten Schritt im Erkennungsprozess; 

Figur 2: Ein© Worterkennung aus den erkannten Triphonen als zweiten Schritt 

im Erkennungsprozess; 
Bgur 3;: eine syntaktische Rekonstmktion der erkannten Worter als dritten 
Schritt des Erkennungsprozesses; 
30 Figur 4: Ein Beispiel fQr die Gliedenjng der erkannten Worter in 

WortartenJaitcgorien sowie in nominale und verbale Phrasen; 
Figur 5: Ein Programrnbeispiel fur eine mSgliche Grammar; 
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Figur 6- Eine Obersicht fiber die Struklur einer PSG Grammar. 
Rgur 7: Ein Beispiel fQr eine Bildung von Wortlcombinationen be! einer Grammar 
nach den Stand derTeciinil<. 

5 Figur 1 zeigt den ersten Schritl einer Spracherkennung: die Triphonanalyse. Der 
kontinuierliche Redefluss eine Person 1 wird z.B. von einem Mikrofon eines Telef ons 
angenommen und als analoges Signal einem Spracherkenner 2 zugefQhrt. Dort w.rd 
das analoge Sprachsignal in ein digitales Sprachsignal 3 umgewandelt. Das 
Sprachsignal enlhail eine Vielzahl von Triphonen. d.h. Lautsegmenten. die .m 

10 Spracherkenner2mitVorhandenen.d.h.vorgegebenenTriphon.VerknQpfungsregeln 

abgegiichen werden. Die vorhandenen Triphone sind in einer Datenbasis 
abgespeichert. die ein oder mehrere Lautw5rterbQcher enthalt. Die erkannten 
Triphone liegen dann als eine Triphon-Kette 4 vor. z.B. ..pro", ,rof , „ote". „tel-. 

15 In einem zweiten Schritt gemaf3 Figur 2 werden aus den erkannten Triphonen 
sinnvoile Worter gebildet Dazu wird die vorhandene Triphon-Kette 4 mit in einem^ 
weiteren i^utworterbuch 5 abgespeicherten. vorgegebenen Wortem 6, z.B. ..profi". 
.portal". ..protel". .hotel", verglichen. Das LautwSrterbuch 5 kann einen bestimmten 
Worlschatz aus der Umgangssprache sowie einen auf die jeweiiige Anwendung 

20 zugeschnittenen. spezielien Wortschatz umfassen. Stimmen die erkannten Triphone. 
2.B. „pro" und ..tel", mit den in einem Wort. z.B. ..protel". enthaltenen Triphonen 
Qberein. wird das entsprechende Wort 7 als solches erkannt: ..protel". 

im nachsten Schritt, dargestellt in Figur 3. erfoigt die syntaktische Rekonstmktion der 
25 erkannten Worter 7 mit Hilfe der Grammar 8. Dazu werden die erkannten Worter 
ihren Wortartkategorien, wie Nomen. Verb, Adverb. Artikel. Adjekliv. etc. zugeordnet. 
wie dies in Figur 6 dargestdit ist. Dies erfoigt anhand von in Wortartkategorien 
unterteilten Datenbasen. Wie man in Rgur 5 erkennt, konnen die Datenbasen 9-15 
sowohl die oben erwShnten. herkommiichen Wortartkategorien als auch spezielle 
30 Wortartkategorien. wie z.B. Ja/Nein Grammtik 9, Telefonnummem 14. 15. enthalten. 
Zudem kann eine Erkennung von DTMF-Eingaben 16 vorgeseben sein. 
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Die beschriebene Zuordnung der Wortartkategorie zu den erkannten Worten kann 
bereits wahrend des Worterkennungsprozesses erfolgen. 



Im nachsten Schritt (Schritt 17) warden die erkannten Worter anhand Ihrer 
5 Wortkategorien einer VerbalPhrase. d.li. einer auf einem Verb basierenden Phrase, 
und einer NbminalPhiase, d.h. einer auf einem Nomen basierenden Phrase, 
zugeordnet, vgl. Figur 6. 

Danach werden die NomialPhrasen und VerbalPhrasen nach phrasenstruWureilen 
Gesic5htspunkten in Objekten zusammengefOhrt 
10 In Schritt 1 8 warden die Objekte fQr das IVIultitasking mit der entsprechenden 
sprachgesteuerten Anwendung verknQpft. 

Jedes Objekt 19 umfasst einen in der Grammar 8 hinterlegten Zielsatz, genauer 
gesagt ein Satzmodell. Aus Figur 4 geht hervor, dass ein solches Satzmodell z.B, 
15 durch eine Worlreihenfolge „Subjekt, Verb, Objekt" oder „Objekt, Verb. Subjekt" 
definiert sein kann. Viele andere Satzbaustmkturen sind in dieser allgemeinen Forni 
in der Grammar 8 hinteriegt. Entsprechen die Wortkategorien der erionnten Worter 7 

I 

der Reihenfolge eines der vorgegebenen Satzmodelle, so werden sie dem 
zugeh6rigen Objekt zugeordnet. Der Satz gilt als eri«annt. Anders ausgedrOckt 
20 umfasst jedes Satzmodell eine Anzahl von den verschiedenen Wortkategorien 

zugeordneten Variablen, die mit den entsprechenden Wortkategorien der erkannten 
Worter 7 gefullt werden. 

Das Verfahren bedient sich der traditicnellen Grammar Specif ication Language 
25 (GSL), strukturiert die hinterlegten Satze jedoch in innovativer Weise. Dabei orientiert 
sie sich an den Regein der Phrasenstajkturgrammatik und am Konzept einer 
Generativen Transfomiationsgrammatik. 

Durch die konssquente Anwendung der dort beschriebenen Tiefenstrukluren eines 
30 Satzes, insbesondere der Unterscheidung von Nominalphrasen und Verbalphrasen, 
steht sie der Satzkonsfrtution der naturlichen Sprache sehr viel naher als die bislang 
vorherrschenden intuitiven Grammariconzepte. 
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Die GT/PS-Grammar basiert somit auf einer theoretischen Modellbildung, die 
geeignet isl, die abstrakten Prinzipien natOrlichsprachlicher AuBerungen zu ermitteln. 
Auf dem Gebiet modemer Spracherkennungssysteme eroffnet sie erstmals die 
5 Moglichkeit. die Abstraklion von Satzbildungsregein gleichsam umzukehren und als 
Vorhereage der AuBerungen von Appllkationsnutzem zu konkretisieren. Damit wird 
ein systematischer Zugriff auf Spracherkennungs-Grammars moglicii, die bislang 
stets auf der intuitiven Akkumulation von Beispieisatzen beruhten. 

10 Ein zentrales Merkmal herkommlicher und GT/PS-Grammars ist die hierarchische 
Verschachtelung in sogenannte Subgrammars. die einzelne Worte wie Variablen auf 
der hochsten Ebene zu einem ganzen Sate zusammenseteen. Die GT/PS-Grammar 
ist in diesem Punkt sehr vie! kleiner und hierarchisch vie! ubersiclitlicher als die 
bisher bekannten Grammars. Im Unterschied zu herkommlichen Grammars sind in 

15 der neuen Grammar fast ausscinlieBiich „sinnvolle'' Satze hinterlegt. so dass das Mal3 
an Overgeneration. d.h. hinterlegte Satze. die im natQriichspraclnlichen Sinnefalsch 
sind, sinkt. Dies ist wiedemm die Voraussetzung fOr eine verbesserte 
Erkennerleistung. da die Applikation nur zwischen wenigen hinterlegten Altemativen 
wahlen muss. 

20 
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Patentanspruche 

5 1 . Verfahren zur natQrIichen Spracherkennung auf Basis einer Generative 
Transformations-yPhrasenstrulctur-Grammatik. gekennzeichnet durch die 

Schritte: 

- Analyse einer gssprochenen Phrase auf darin enthaltene Triphone; 

- Bildung von in der gGsprochenen Phrase enthaltenen Wortem aus den 

10 erkannten Triphonen mit Hilfe von Lautwortdatenbasen (Dictionaries); und 

- Syntaktische RekonstrukKon der gesprochenen Phrase aus den ert<annten 
Wortem unter Verwesndung eines grammatischen Regelwerks (Grammar). 

2. Verfahren nach Anspruch 1 , dadurch gekennzeichnet, dass die syntaktische 
15 Rekonstruktion der gesprochenen Phrase die Schritle umfasst 

- ZuotxJnung der ertennten WSrter ai Wortartenkategorlen (Verb, Nomen etc.) 

- ZuoitJnung der Wortartenkategonen zu Nominalphrasen und Verbalphrasen; 

- ZusammenfQhnjng der Nominalphrasen und Verbalphrasen nach 
syntaktischen Regeln in Objeklen unter Vorgabe verschiedene Satzmodelle, 

20 wobei die erkannten Wortfolgen mit den vorgegebenen Satzmodellen 

verglichen werden, wobei Im Fall einer Obereinstimmung der Satz als erkannt 
gilt und eine Aktion In einer sprachgesteuerten Applikation ausl5st. 

3. Verfahren nach einem der AnsprQche 1 oder 2, dadurch gekennzeichnet. dass 
25 jedes Satzmodell eine Anzahl von Wortkategorien zugeordneten Variablen 

aufwelsen, die mit der» entsprechenden Wortkategorien der erkannten Worter 
gefQIlt werden. 



4. 

30 



Verfahren nach einem der AnsprOche 1 bis 3, dadurch gekennzeichnet, dass die 
zu erkennenden Worte in verschiedene Wortkalegorien untergliedert in den 
Wortdatenbasen vorgehalten werden. 
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5. Verfahren nach eine der AnsprQche 1 bis 4. dadurch gekennzeichnet, dass die 
Objekt© Oder Teile davon mit entsprechenden Aktionsparametem einer 
sprachgesteuerten Applikation veilcnQpft werden. 

5 



